﻿ Curs 5-6: Cum este făcut un sistem de întrebare-răspuns? Tehnici de bază în Prelucrarea Limbajului Natural ne te Adrian If ferite de lide-uri o măr de s Cu un nu Domeniul Prelucrării Limbajului Natural • Îşi propune să studieze limbajul uman ca mijloc de comunicare om-maşină, pentru a intermedia comunicarea om-om, ba chiar și maşină-maşină • Scopul ultim: transformarea imensei acumulări de cunoştinţe umane cuprinse în biblioteca planetară într-o zonă de explorare automată • Instrumentele de lucru: teoretice, empirice şi aplicative • Un domeniu pentru lingvişti şi informaticieni, dar mai ales pentru lingvişti-informaticieni Tehnologia limbajului natural • Limbajul vorbit • Limbajul scris • Limbajul în corelaţie cu alte modalităţi de expresie (multimodalitate) Tehnologiile limbajului vorbit • Interpretarea vocii – reprezentarea semnalelor vocale – recunoaşterea vorbirii – analiza prozodiei – recunoaşterea vorbitorului • Sinteza vocală Prelucrarea semnalului sonor Prin bunăvoinţa Acad H N Teodorescu Tehnologiile limbajului scris • Prelucrări sub-sintactice (nivelul cuvintelor și al grupurilor) • Prelucrări sintactice (nivelul propozițiilor și al frazelor) • Prelucrări la nivel de discurs (ce se află dincolo de frază?) Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – prelucrări sub-sintactice • unităţile lexicale • graniţele de frază • granițele de propoziții • partea de vorbire şi marca morfologică • lema • numele de entităţi • grupurile (nominale, verbale, prepoziţionale etc ) şi atracţiile lexicale (colocaţii) Fraze Solicitat să comenteze un editorial recent al lui Dinu Patriciu, în care acesta preciza că nu crede în social-liberalism şi să aprecieze dacă, astfel, a dat o lovitură de imagine USL, Antonescu a spus că nu ştie dacă Patriciu s-a referit la USL | El a precizat că USL este o uniune social-liberală pentru că reuneşte un partid social-democrat cu un partid naţional liberal | Propoziții Solicitat să comenteze un editorial recent al lui Dinu Patriciu,| în care acesta preciza|că nu crede în social-liberalism| şi să aprecieze | dacă, astfel, a dat o lovitură de imagine USL,| Antonescu a spus|că nu ştie|dacă Patriciu s-a referit la USL | Unități lexicale Solicitat să comenteze un editorial recent al lui Dinu Patriciu , în care acesta preciza că nu crede în social-liberalism şi să aprecieze dacă , astfel , a dat o lovitură de imagine USL , Antonescu a spus că nu ştie dacă Patriciu s - a referit la USL Lema și partea de vorbire Solicitat solicita vb să să conj comenteze comenta vb un un art nehot editorial editorial sb recent recent adj Adnotarea morfologică • English 0 1 He he subj:>2 @SUBJ PRON 2 did do v-ch:>4 @+FAUXV V 3 not not neg:>2 @ADVL NEG-PART 4 know know main:>0 @-FMAINV V 5 her she subj:>6 @OBJ PRON 6 name name obj:>4 @-FMAINV V • Romanian Nu ştia cum o cheamă Nivelul morfologic: cuvintele flexionează mănânc Cuvintele sunt formate din părți fixe și părți variabile mănânci mănâncă mâncăm mâncați mănâncă Nivelul morfologic: cuvintele flexionează mănânc Cuvintele sunt formate din părți fixe și părți variabile mănânci mănâncă m âncăm m âncați mănâncă Nivelul morfologic: cuvintele flexionează mănânc+ Cuvintele sunt formate din părți fixe și părți variabile mănânc+i mănânc+ă m ânc+ăm m ânc+ați mănânc+ă Nivelul morfologic: cuvintele flexionează părți fixe mănânc+ Cuvintele sunt formate din părți fixe și părți variabile mănânc+i mănânc+ă m ânc+ăm m ânc+ați mănânc+ă Morfologie fonetică alternanțe fonetice terminații Nivelul morfologic: cuvintele flexionează R1 R2 T1 T2 T3 T4 T5 T6 {mănânc, mânc} + { , i, ă, ăm, ați, ă} terminații R1=>{T1, T2, T3, T6} R2=>{T4, T5} Morfologie paradigmatică Nivelul morfologic: cuvintele flexionează mănânc p=1, n=s mănânci p=2, n=s mănâncă p=3, n=s mâncăm p=1, n=p mâncați p=2, n=p Abordarea brutală: mănâncă p=3, n=p memoreză toate formele flexionate ca atare Grupuri nominale Solicitat să comenteze [un editorial recent al lui [Dinu Patriciu]], în [care] [acesta] preciza că nu crede în [social-liberalism] şi să aprecieze dacă, astfel, a dat [o lovitură de [imagine]] [USL], [Antonescu] a spus că nu ştie dacă [Patriciu] s-a referit la [USL] Adnotare la lemă, grup nominal şi sintaxă He did not know her name Entități de tip nume Solicitat să comenteze un editorial recent al lui Dinu Patriciu, în care acesta preciza că nu crede în social-liberalism şi să aprecieze dacă, astfel, a dat o lovitură de imagine USL, Antonescu a spus că nu ştie dacă Patriciu s-a referit la USL persoană persoană persoană organizație Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – prelucrări sintactice • formalisme gramaticale • parsarea è structura sintactică a frazei De la expresii regulate la gramatici de constituenţi conduse de head utilitate RE DCG HPSG FG GPSG TAG CFG CSG TG Joshi Sag&Pollard Gazdar Chomsky Key expresivitate Gramatici de constituienți Ambiguităţi sintactice Maria priveşte poza cu ochelari S S VP NP VP NP NP NP PP PP NP NP priveşte Maria poza cu ochelari priveşte Maria poza cu ochelari Gramatici funcţionale de dependenţă (FDG) • Structura de arbore: – Nodurile sunt cuvinte – Arcele exprimă relaţii sintactice între cuvinte Relaţii funcţionale în FDG I see a bird Original în http://www ling helsinki fi/~tapanain/dg/doc/TR-1/node1 html#SECTION00010000000000000000 Relaţii funcţionale în FDG painted Jackkitchenwhiteand theliving-roomblue the Jack painted the kitchen white and the living-room blue Original în http://www ling helsinki fi/~tapanain/dg/doc/TR-1/node38 html#fig973 Relaţii funcţionale în FDG painted and Jackkitchen the repaired fence the Jack painted the kitchen and repaired the fence Original în http://www ling helsinki fi/~tapanain/dg/doc/TR-1/node38 html#fig973 Parsare • Top-down versus bottom-up • Depth-first versus breadth-first • Algoritmul CYK • Diagrame active • Tomita… Top-down versus bottom-up parsing Top-down Bottom-up • se fixează un scop (structura • cuvintele se înlocuiesc prin bănuită a reprezenta fraza) categoriile lor • scopul curent se descompune • acestea se combină în succesiv în constituienţi constituienţi conform (subscopuri) părţilor drepte ale regulilor • se repetă acest proces până se • procesul de combinare se ajunge la terminali, moment în continuă în toate modurile care se face confruntarea posibile până când, eventual, acestora cu cei aflaţi în şirul de se reuşeşte obţinerea unei intrare singure structuri proces direcţionat de scop proces direcţionat de date (goal-driven) (data-driven) P TOP-DOWN P GV GN GN GV Art Sp Vt Art Sc Sc Sp Vt P Mihai citeste o carte Mihai citeste o carte P GN P GV GV GN GN V GV GN V GN V GN Art Sp Vt Art Sc Sc Sp Vt Sp Vt Art Sp Mihai citeste o carte Mihai citeste o carte Mihai citeste o carte După Dan Tufiş BOTTOM-UP GN GNGN V Sp Vt Art Sc Sp Vt Art Sc ihai citeste o carte M hai citeste o carte M i P GV GV V GN GN V GN GN Art Sc Sp Vt Art Sc Sp Vt citeste o carte ihai citeste o carte Mihai MDupă Dan Tufiş Depth-first versus breadth-first parsing Depth-first Breadth-first • notează toate opţiunile atunci • notează toate opţiunile atunci când există mai multe alternative când există mai multe alternative • alege una şi urmeaz-o • baleiază pe rând toate aceste căi • dacă eşuează întoarce-te şi alege • abandonează toate căile care altă cale eşuează dar continuă cu restul • repetă acest proces până obţii • repetă acest proces până obţii analiza (succes) sau până la analiza (succes) sau până la epuizarea tuturor căilor (eşec) epuizarea tuturor căilor (eşec) proces care se pretează la proces care se pretează la investigarea soluțiilor una după alta investigarea în paralel a soluțiilor Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – Prelucrări semantice şi de discurs • dezambiguizare semantică è sensurile cuvintelor • determinarea rolurilor semantice ale verbelor • structura retorică a discursului şi dialogului • rezoluţia anaforelor Cuvintele îşi precizează sensul în context • Ion se prinse în horă cu o fată cu cosiţe lungi • Când fată iapa ta? • Mă mai dau o dată pe pâra roşie • I-am dat una peste mână • Maria a dat cartea înapoi • M-am scos… • Mi-am scos măseaua de minte Roluri semantice Carla bought the computer from Sally for $100 er buyer goods seller price seller price buygoods Sally sold the computer to Carla for $100 Structura retorică a discursului 1 Cînd a ajuns Apolo în muntele Parnas, 2 dihania uriaşă s-a avîntat spre dînsul, 3 dornică să-l ucidă 4 Dar zeul şi-a întins arcul 5 A tras prima sageată 6 Erau doar patru zile de cînd văzuse lumea, 7 şi întîia lui săgeată a şi nimerit monstrul din Legendele Olimpului, de Alexandru Mitru Structura retorică a discursului 1 Cînd a ajuns Apolo în muntele Parnas, 2 dihania uriaşă s-a avîntat spre dînsul, 3 dornică să-l ucidă 4 Dar zeul şi-a întins arcul 5 A tras prima sageată 6 Erau doar patru zile de cînd văzuse lumea, 7 şi întîia lui săgeată a şi nimerit monstrul CONTRAST CIRCUMSTANCE SEQUENCE SEQUENCE 1 4 5 PURPOSE CONCESSION 2 3 6 7 Rezoluţia anaforei If the baby does not thrive on raw milk, boil it Hobbs, 1997 Tehnologiile limbajului scris • Aplicaţii complexe – rezumare automată – clasificarea documentelor • cuvinte şi expresii cheie – interogări asupra textelor - queson-answering • pe domenii închise/deschise – implicaţii logice – textual entailment – traducere automată – analiza sentimentelor – analize temporale Rezumare: un extras din “Legendele Olimpului” Zeul - după aceea - a coborît în lume şi a cutreierat prin ţări nenumărate, căutîndu-şi loc de templu Şi, tot umblînd pe drumuri, Apolo a ajuns în nişte locuri stranii, stîncoase, mohorîte Pasămite sosise în muntele Parnas Aici sînt nişte vîrfuri de piatră cenuşie, ce parcă stau să cadă într-un abis de smoală clocotitor de vuiet Şuvoaiele de aer - un aer cald si umed - ţîşnesc necontenit şi vorbele rostite se-ntorc iute-n ecouri, sunînd din stîncă-n stîncă Pădurea-i misterioasă Frunzişul ei şopteşte Un izvor îşi prăvale apa sa cristalină spre valea-nnegurată sărind peste pripoare Şi-n munte-i o strîmtoare afundă, mocirloasă, unde traia atuncea - precum spunea legenda - un şarpe numit Piton Trupul acestui monstru era lung cît un munte, cu-o sută de grumazuri şi o sută de guri, care azvîrleau flăcări, duhori înecăcioase Duhorile acestea înţesau tot văzduhul şi oameni, fiare, gîze, păsări sau alte fiinţe, dacă treceau pe acolo, se stingeau otrăvite Şarpele se născuse dintr-o mocirlă verde Mocirla rămăsese din apele vărsate acolo, prin potopul orînduit de Zeus Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo, cînd va trece prin munte, şi să-i răpună viaţa Hera-l ura pe fiul cel nou născut al Letei, pentru că soţul său, prea puternicul Zeus, ţinea mai mult la dînsul decit la fiii ei: Hefaistos şi Ares Cînd a ajuns Apolo în muntele Parnas, dihania uriaşă s-a avîntat spre dînsul, dornică să-l ucidă Dar zeul şi-a întins arcul A tras prima săgeată Erau doar patru zile de cînd văzuse lumea, şi întiia lui săgeată a şi nimerit monstrul E drept că şi săgeata fusese făurită de fierarul din Lemnos, Hefaistos, schilodul, cu mare meşteşug Cum i-a pătruns săgeata în carnea mucedă, şarpele a simţit că i-a venit sfîrşitul A încercat să scape şi să se furişeze într-o pesteră adîncă Dar n-a mai izbutit Chinuit de dureri, Piton s-a zvîrcolit prin verzile mocirle în care vieţuia A sărit în nisipul cel galben de pe maluri şi a lunecat iară, cu şuiere cumplite, în putreda baltoacă, în vreme ce veninul i se scurgea din boturi Monstrul s-a zvîrcolit tot mai încet în apă Ochii i s-au lăsat S-au cufundat pe încetul, de tot, în întuneric Aşa s-a prăpădit Iar trupul său lungit pe zeci şi zeci de stînjeni, i s-a uscat cu timpul, sub razele de soare Şi locurile acestea unde-a răpus Apolo pe fiorosul monstru au fost numite Delfi În Delfi se vor pune temelii unui templu şi-unui vestit oracol, a hotărît Apolo Oamenii vor putea să-ntrebe şi să afle răspuns la întrebări, prin preuteasa mea, Pitia, înţeleapta Ea se va aşeza pe un trepied de aur, învăluit în pielea lui Piton cel răpus, deasupra unei grote adînci si fumegînde, ce duce pînă-n ţara lui Hades, mohorîtul Prin ea voi da răspunsuri Dar oamenii datori sînt să-mi dăruiască aur şi scule preţioase şi zeci de bogăţii, răsplată pentru mine şi preoţii din templu Mai poruncesc, de-asemeni, să aibă loc, în cinstea luptei mele cu monstrul, jocuri, serbări, concursuri, şi cîntece, şi danţuri Să fie veselie, iar eu să fiu slăvit După aceea zeul, pătat încă de sînge - de sîngele lui Piton - a pornit să se spele, să-şi purifice trupul, în micul rîu Tempe Rezumare: un extras din “Legendele Olimpului” Zeul - după aceea - a coborît în lume şi a cutreierat prin ţări nenumărate, căutîndu-şi loc de templu Şi, tot umblînd pe drumuri, Apolo a ajuns în nişte locuri stranii, stîncoase, mohorîte Pasămite sosise în muntele Parnas Aici sînt nişte vîrfuri de piatră cenuşie, ce parcă stau să cadă într-un abis de smoală clocotitor de vuiet Şuvoaiele de aer - un aer cald si umed - ţîşnesc necontenit şi vorbele rostite se-ntorc iute-n ecouri, sunînd din stîncă-n stîncă Pădurea-i misterioasă Frunzişul ei şopteşte Un izvor îşi prăvale apa sa cristalină spre valea-nnegurată sărind peste pripoare Şi-n munte-i o strîmtoare afundă, mocirloasă, unde traia atuncea - precum spunea legenda - un şarpe numit Piton Trupul acestui monstru era lung cît un munte, cu-o sută de grumazuri şi o sută de guri, care azvîrleau flăcări, duhori înecăcioase Duhorile acestea înţesau tot văzduhul şi oameni, fiare, gîze, păsări sau alte fiinţe, dacă treceau pe acolo, se stingeau otrăvite Şarpele se născuse dintr-o mocirlă verde Mocirla rămăsese din apele vărsate acolo, prin potopul orînduit de Zeus Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo, cînd va trece prin munte, şi să-i răpună viaţa Hera-l ura pe fiul cel nou născut al Letei, pentru că soţul său, prea puternicul Zeus, ţinea mai mult la dînsul decit la fiii ei: Hefaistos şi Ares Cînd a ajuns Apolo în muntele Parnas, dihania uriaşă s-a avîntat spre dînsul, dornică să-l ucidă Dar zeul şi-a întins arcul A tras prima săgeată Erau doar patru zile de cînd văzuse lumea, şi întiia lui săgeată a şi nimerit monstrul E drept că şi săgeata fusese făurită de fierarul din Lemnos, Hefaistos, schilodul, cu mare meşteşug Cum i-a pătruns săgeata în carnea mucedă, şarpele a simţit că i-a venit sfîrşitul A încercat să scape şi să se furişeze într-o pesteră adîncă Dar n-a mai izbutit Chinuit de dureri, Piton s-a zvîrcolit prin verzile mocirle în care vieţuia A sărit în nisipul cel galben de pe maluri şi a lunecat iară, cu şuiere cumplite, în putreda baltoacă, în vreme ce veninul i se scurgea din boturi Monstrul s-a zvîrcolit tot mai încet în apă Ochii i s-au lăsat S-au cufundat pe încetul, de tot, în întuneric Aşa s-a prăpădit Iar trupul său lungit pe zeci şi zeci de stînjeni, i s-a uscat cu timpul, sub razele de soare Şi locurile acestea unde-a răpus Apolo pe fiorosul monstru au fost numite Delfi În Delfi se vor pune temelii unui templu şi-unui vestit oracol, a hotărît Apolo Oamenii vor putea să-ntrebe şi să afle răspuns la întrebări, prin preuteasa mea, Pitia, înţeleapta Ea se va aşeza pe un trepied de aur, învăluit în pielea lui Piton cel răpus, deasupra unei grote adînci si fumegînde, ce duce pînă-n ţara lui Hades, mohorîtul Prin ea voi da răspunsuri Dar oamenii datori sînt să-mi dăruiască aur şi scule preţioase şi zeci de bogăţii, răsplată pentru mine şi preoţii din templu Mai poruncesc, de-asemeni, să aibă loc, în cinstea luptei mele cu monstrul, jocuri, serbări, concursuri, şi cîntece, şi danţuri Să fie veselie, iar eu să fiu slăvit După aceea zeul, pătat încă de sînge - de sîngele lui Piton - a pornit să se spele, să-şi purifice trupul, în micul rîu Tempe Rezumare: un extras din “Legendele Olimpului” Zeul - după aceea - a coborît în lume şi a cutreierat prin ţări nenumărate, căutîndu-şi loc de templu Şi, tot umblînd pe drumuri, Apolo a ajuns în nişte locuri stranii, stîncoase, mohorîte Pasămite sosise în muntele Parnas Aici sînt nişte vîrfuri de piatră cenuşie, ce parcă stau să cadă într-un abis de smoală clocotitor de vuiet Şuvoaiele de aer - un aer cald si umed - ţîşnesc necontenit şi vorbele rostite se-ntorc iute-n ecouri, sunînd din stîncă-n stîncă Pădurea-i misterioasă Frunzişul ei şopteşte Un izvor îşi prăvale apa sa cristalină spre valea-nnegurată sărind peste pripoare Şi-n munte-i o strîmtoare afundă, mocirloasă, unde traia atuncea - precum spunea legenda - un şarpe numit Piton Trupul acestui monstru era lung cît un munte, cu-o sută de grumazuri şi o sută de guri, care azvîrleau flăcări, duhori înecăcioase Duhorile acestea înţesau tot văzduhul şi oameni, fiare, gîze, păsări sau alte fiinţe, dacă treceau pe acolo, se stingeau otrăvite Şarpele se născuse dintr-o mocirlă verde Mocirla rămăsese din apele vărsate acolo, prin potopul orînduit de Zeus Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo, cînd va trece prin munte, şi să-i răpună viaţa Hera-l ura pe fiul cel nou născut al Letei, pentru că soţul său, prea puternicul Zeus, ţinea mai mult la dînsul decit la fiii ei: Hefaistos şi Ares Cînd a ajuns Apolo în muntele Parnas, dihania uriaşă s-a avîntat spre dînsul, dornică să-l ucidă Dar zeul şi-a întins arcul A tras prima săgeată Erau doar patru zile de cînd văzuse lumea, şi întiia lui săgeată a şi nimerit monstrul E drept că şi săgeata fusese făurită de fierarul din Lemnos, Hefaistos, schilodul, cu mare meşteşug Cum i-a pătruns săgeata în carnea mucedă, şarpele a simţit că i-a venit sfîrşitul A încercat să scape şi să se furişeze într-o pesteră adîncă Dar n-a mai izbutit Chinuit de dureri, Piton s-a zvîrcolit prin verzile mocirle în care vieţuia A sărit în nisipul cel galben de pe maluri şi a lunecat iară, cu şuiere cumplite, în putreda baltoacă, în vreme ce veninul i se scurgea din boturi Monstrul s-a zvîrcolit tot mai încet în apă Ochii i s-au lăsat S-au cufundat pe încetul, de tot, în întuneric Aşa s-a prăpădit Iar trupul său lungit pe zeci şi zeci de stînjeni, i s-a uscat cu timpul, sub razele de soare Şi locurile acestea unde-a răpus Apolo pe fiorosul monstru au fost numite Delfi În Delfi se vor pune temelii unui templu şi-unui vestit oracol, a hotărît Apolo Oamenii vor putea să-ntrebe şi să afle răspuns la întrebări, prin preuteasa mea, Pitia, înţeleapta Ea se va aşeza pe un trepied de aur, învăluit în pielea lui Piton cel răpus, deasupra unei grote adînci si fumegînde, ce duce pînă-n ţara lui Hades, mohorîtul Prin ea voi da răspunsuri Dar oamenii datori sînt să-mi dăruiască aur şi scule preţioase şi zeci de bogăţii, răsplată pentru mine şi preoţii din templu Mai poruncesc, de-asemeni, să aibă loc, în cinstea luptei mele cu monstrul, jocuri, serbări, concursuri, şi cîntece, şi danţuri Să fie veselie, iar eu să fiu slăvit După aceea zeul, pătat încă de sînge - de sîngele lui Piton - a pornit să se spele, să-şi purifice trupul, în micul rîu Tempe Un rezumat obişnuit Zeul - după aceea - a coborît în lume şi a cutreierat prin ţări nenumărate, căutîndu-şi loc de templu Şi, tot umblînd pe drumuri, Apolo a ajuns în nişte locuri stranii, stîncoase, mohorîte Pasămite sosise în muntele Parnas Şi-n munte-i o strîmtoare afundă, mocirloasă, unde traia atuncea - precum spunea legenda - un şarpe numit Piton Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo, cînd va trece prin munte, şi să-i răpună viaţa Cînd a ajuns Apolo în muntele Parnas, dihania uriaşă s-a avîntat spre dînsul, dornică să-l ucidă Dar zeul şi-a întins arcul A tras prima săgeată Erau doar patru zile de cînd văzuse lumea, şi întiia lui săgeată a şi nimerit monstrul Monstrul s-a zvîrcolit tot mai încet în apă Aşa s-a prăpădit După aceea zeul, pătat încă de sînge - de sîngele lui Piton - a pornit să se spele, să-şi purifice trupul, în micul rîu Tempe Un rezumat focalizat pe prima apariţie a lui Hefaistos Zeul - după aceea - a coborît în lume şi a cutreierat prin ţări nenumărate Apolo a ajuns în nişte locuri stranii, stîncoase, mohorîte Pasămite sosise în muntele Parnas Şi-n munte-i o strîmtoare afundă, mocirloasă, unde traia atuncea un şarpe numit Piton Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo, cînd va trece prin munte, şi să-i răpună viaţa Hera-l ura pe fiul cel nou născut al Letei, pentru că soţul său, prea puternicul Zeus, ţinea mai mult la dînsul decit la fiii ei: Hefaistos şi Ares Cînd a ajuns Apolo în muntele Parnas, dihania uriaşă s-a avîntat spre dînsul, dornică să-l ucidă Dar zeul şi-a întins arcul A tras prima săgeată Erau doar patru zile de cînd văzuse lumea, şi întiia lui săgeată a şi nimerit monstrul Monstrul s-a zvîrcolit tot mai încet în apă Aşa s-a prăpădit După aceea zeul, pătat încă de sînge - de sîngele lui Piton - a pornit să se spele, să-şi purifice trupul, în micul rîu Tempe Un rezumat focalizat pe a doua apariţie a lui Hefaistos Zeul - după aceea - a coborît în lume şi a cutreierat prin ţări nenumărate Apolo a ajuns în nişte locuri stranii, stîncoase, mohorîte Pasămite sosise în muntele Parnas Şi-n munte-i o strîmtoare afundă, mocirloasă, unde traia atuncea un şarpe numit Piton Piton primise-n taină poruncă de la Hera să-l pîndească pe Apolo, cînd va trece prin munte, şi să-i răpună viaţa dihania uriasă s-a avîntat spre dînsul, dornică să-l ucidă Dar zeul şi-a întins arcul A tras prima săgeată şi întîia lui săgeată a şi nimerit monstrul E drept că şi săgeata fusese făurită de fierarul din Lemnos, Hefaistos, schilodul, cu mare meşteşug Monstrul s-a zvîrcolit tot mai încet în apă Aşa s-a prăpădit După aceea zeul, pătat încă de sînge - de sîngele lui Piton - a pornit să se spele, să-şi purifice trupul, în micul rîu Tempe Limbajul în corelaţie cu alte modalităţi • Reprezentarea timpului şi a spaţiului • Text şi imagine • Vorbire şi gest • Mişcările faciale şi recunoaşterea vorbirii • Mişcările faciale şi sinteza vorbirii • Semantic Web Question Answering - Introduction • Question Answering (QA) can be defined as the task which takes a queson in natural language and produces one or more ranked answers from a collecon of documents • The QA research area has emerged as a result of a monolingual English QA track being introduced at TREC (Text Retrieval and Evaluation Conference: http://trec nist gov/) 48 Question Answering - Modules • QA systems normally adhere to the pipeline architecture composed of three main modules (Harabagiu and Moldovan, 2003): – queson analysis – the results are keywords, answer and queson type, focus – paragraph retrieval - the results are a set of relevant candidate paragraphs/sentences from the document collecon – answer extracon – the results are a set of candidate answers ranked using likelihood measures 49 QA – Question Type • Harabagiu and Moldovan, 2003: – Factoid – “Who discovered the oxygen?”, “When did Hawaii become a state?” or “What football team won the World Coup in 1992?” – List – “What countries export oil?” or “What are the regions preferred by the Americans for holidays?” – Deﬁnion – “What is a quasar?” or “What is a queson- answering system?” • How, Why, hypothetical, semantically constrained, polar (Yes/No) and cross-lingual questions 50 QA – Answer Type • Person - "What”, "Who”, "Whom", "With who" • Locaon (City, Country, and Region) - "What state/city“, "From where”, "Where“ • Organizaon - "Who produced“, "Who made“ • Temporal (Date and Year) – “When” • Measure (Length, Surface and Other) – “How many/much” • Count - "How many/much“ • Yes/No – “Did you fear that?”, “Are you blue?” 51 QA – Search collection • Local collections, internal organization documents, newspapers, Internet • Closed-domain - deals with questions from a specific domain (medical, baseball, etc ) Can exploit domain-specific knowledge (ontologies, rules, disambiguation) • Open-domain – general question about anything Can use general knowledge about the world, wikipediae, etc 52 Examples of QA systems • BASEBALL (Green, 1963) - answer questions about baseball games • LUNAR (Woods, 1977) – geological analysis of rocks returned by the Apollo moon missions • IURES (Cristea, Tufiş, Mihaiescu, 1985) – ICI repository of programs, medicine, geography 53 QA - Systems of today • Powerset: http://www powerset com/ (http://www bing com/) • Assimov the chat bot: http://talkingrobot org/b/ • AnswerBus: http://www answerbus com/index shtml • NSIR: http://tangra si umich edu/clair/NSIR/html/nsir cgi • START (The first question answering system): http://start csail mit edu/ 54 55 56 57 58 QA - Competitions • CLEF (Cross Language Evaluation Forum) started in 2000 - http://www clef-campaign org/ European languages in both monolingual and cross-language contexts – Coordination: Istituto di Scienza e Tecnologie dell'Informazione, Pisa, Italy • TREC (Text REtrieval Conference) - started in 1992 http://trec nist gov/ – National Institute of Standards and Technology (NIST), Gaithersburg, Maryland, USA 59 CLEF 2011 – Input Data 60 UAIC System – CLEF 2011 • Our group participated at CLEF exercises since 2006: – 2006 – Ro–En (English collection) – 9 47% right answers – 2007 – Ro–Ro (Romanian Wikipedia) – 12 % – 2008 – Ro–Ro (Romanian Wikipedia) – 31 % – 2009 – Ro–Ro, En–En (JRC-Acquis) – 47 2 % (48 6%) – 2010 – Ro-Ro, En-En, Fr-Fr (JRC-Acquis, Europarl) – 47 5% (42 5%, 27 %) 50 45 40 35 30 25 20 15 10 5 0 61 2006 2007 2008 2009 2010 The UAIC system components Background Test data (documents, knowledge questions, possible answers) Lucene index 1 Questions processing: Answers processing: - Lemmatization - Lemmatization - Stop words elimination - Stop words elimination - NEs identification - NEs identification - Lucene query - Lucene query documents Identify relevant documents Lucene indexes 2 Partial and global scores per answers 62 Background knowledge indexing • The Romanian background knowledge has 161,279 documents in text format – 25,033 correspond to the AIDS topic – 51,130 to Climate Change topic – 85,116 to Music and Society topic • The indexing component considers the name of the file and the text from it => Lucene index 1 63 Test data processing • Test data was an XML file with 12 test documents – 4 documents for each of the three topics (12 in total) – 10 questions for each document (120 in total) – 5 possible answers for each question (600 in total) • Test data processing involved 3 operations: – extracting documents – processing questions – processing possible answers 64 Test data processing – Extracting documents • The content of => \ \1 10 topic id reading test id 65 Test data processing – Processing questions • Stop words elimination • Lemmatization • Named Entity identification • Lucene query building 66 Test data processing – Processing possible answers • Similar to processing questions + • We use ontology (Iftene and Balahur, 2008) for elimination of possible answers with low probability to be final answer (relation [is located in]) • In which European cies has Annie Lennox performed? • We eliminate from the list of possible answers the answers with non-European cities (we replace non-European cities with the value XXXXX) 67 Information Retrieval on Background Knowledge • We used Lucene to retrieve, for every question, the relevant documents from the background knowledge • The result of this step is a list of documents d for every query q , with associated values – Score1(d, q) - the relevance score for a document d when we search the background knowledge with the Lucene query associated to question q 68 Information Retrieval – Save relevant documents • Relevant files are copied in a relative path \ \ 69 Indexing relevant documents for questions • For every question we index relevant documents returned by Lucene at the previous step and relevant documents saved from the initial test file 70 Searching using relevant documents for questions • Then in every index, we performed searches using Lucene queries associated to possible answers • For every answer, we obtained a list of documents with Lucene relevance scores • Score2(d, a) is the relevance score for document d when we search with the Lucene query associated to the answer a 71 Identifying the most probable answer • We combine Score1 and Score2 • In the end, we consider the answer with the highest value as being the most probable answer • We submitted different classes of runs, based on thresholds used to consider a NOA response: – for the Ro-Ro task, we used three thresholds (0, 0 2, 0 5) – for the En-En task, we consider one threshold (0 2) 72 Results 1 • Results of UAIC’s runs at question answering level Ro-RoEn-En answered right30111925 answered wrong85194347 total answered115306272 unanswered right0191112 unanswered wrong0664234 unanswered empty5552 total unanswered5905848 Overall accuracy0 250 090 160 21 C@1 measure0 260 160 230 29 73 Results 2 • Results of UAIC’s runs at reading test level RO-ROEN-EN Topic1 median0 100 000 070 23 Topic2 median0 400 000 290 31 Topic3 median0 300 320 330 36 Overall median0 200 000 160 31 Topic1 mean0 100 040 080 25 Topic2 mean0 390 080 260 27 Topic3 mean0 290 300 310 32 Overall mean0 260 140 220 28 74 Error Analysis (1) • One of the most common error sources arises from our attempt to take into account all of the supporting snippets (Sum) that our information retrieval procedure returns => Possible future soluon (Max or Avg) • When two candidates have identical scores we choose the first candidate => Possible future soluon: use the question focus, and perform an additional step of determining the distance between each candidate and the focus 75 Error Analysis (2) • Another problem appears when the top scoring snippet is obtained for an entity name that has the highest Tf/Idf value => Possible future soluon: use the question focus • For the En-En task, a problem was that we did not used background information • Numbers are also a major cause of errors, mainly because they can be written either with letters or with digits 76 Requirements (Team: max 2 persons, Deadline: 1 March) • 1) Create a consumer service for the following Web Service: http://instrumente infoiasi ro/WebQuestionAnswering/ • Links: http://jax-ws java net/articles/jaxws-netbeans/ • 2) Lucene: Use the following archive in order to index and to search in a collections of texts http://thor info uaic ro/~adiftene/Scoala/2012/APLN/Resurse/ 77 Links • Yes–no queson: http://en wikipedia org/wiki/Yes%E2%80%93no question • Queson Answering: http://en wikipedia org/wiki/Question answering • Informaon Extracon: http://en wikipedia org/wiki/Information extraction • Informaon Retrieval: http://en wikipedia org/wiki/Information retrieval • Lecture 13: Evaluaon: Precision and Recall http://courses washington edu/ling473/Lecture13 pdf • Precision and Recall of Five Search Engines for Retrieval of Scholarly Informaon in the Field of Biotechnology: http://www webology org/2005/v2n2/a12 html 78 